检索结果

Select

1. 多模态特征的越南语语音识别文本标点恢复

赖华, 孙童, 王文君, 余正涛, 高盛祥, 董凌

《计算机应用》唯一官方网站 2024, 44 (2): 418-423. DOI: 10.11772/j.issn.1001-9081.2023020231

摘要（101）

HTML （10）

PDF （3010KB）（40）

越南语语音识别系统输出的文本序列缺少标点符号，恢复识别文本标点有助于消除歧义，更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节，基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测，提出多模态特征的越南语语音识别文本标点恢复方法，利用梅尔倒谱系数（MFCC）提取语音特征，利用预训练语言模型提取文本上下文特征，基于标签注意力机制实现语音与文本多模态特征融合，增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明，相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型，所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点，验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 融合双向依存自注意力机制的神经机器翻译

李治瑾, 赖华, 文永华, 高盛祥

《计算机应用》唯一官方网站 2022, 42 (12): 3679-3685. DOI: 10.11772/j.issn.1001-9081.2021101805

摘要（261）

HTML （13）

PDF （961KB）（120）

针对神经机器翻译中资源稀缺的问题，提出了一种基于双向依存自注意力机制（Bi-Dependency）的依存句法知识融合方法。首先，利用外部解析器对源句子解析得到依存解析数据；然后，将依存解析数据转化为父词位置向量和子词权重矩阵；最后，将依存知识融合到Transformer编码器的多头注意力机制上。利用Bi-Dependency，翻译模型可以同时对父词到子词、子词到父词两个方向的依存信息进行关注。双向翻译的实验结果表明，与Transformer模型相比，在富资源情况下，所提方法在汉-泰翻译上的BLEU值分别提升了1.07和0.86，在汉-英翻译上的BLEU值分别提升了0.79和0.68；在低资源情况下，所提方法在汉-泰翻译上的BLEU值分别提升了0.51和1.06，在汉-英翻译上的BLEU值分别提升了1.04和0.40。可见Bi-Dependency为模型提供了更丰富的依存信息，能够有效提升翻译性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 融合句法信息的无触发词事件检测方法

汪翠, 张亚飞, 郭军军, 高盛祥, 余正涛

《计算机应用》唯一官方网站 2021, 41 (12): 3534-3539. DOI: 10.11772/j.issn.1001-9081.2021060928

摘要（242）

HTML （6）

PDF （697KB）（95）

事件检测（ED）是信息抽取领域中最重要的任务之一，旨在识别文本中特定事件类型的实例。现有的ED方法通常采用邻接矩阵来表示句法依存关系，然而邻接矩阵往往需要借助图卷积网络（GCN）进行编码来获取句法信息，由此增加了模型的复杂度。为此，提出了融合句法信息的无触发词事件检测方法。通过将依赖父词及其上下文转换为位置标记向量，并在模型源端以无参数的方式融入依赖子词的单词嵌入来加强上下文的语义表征，而不需要经过GCN进行编码；此外，针对触发词的标注费时费力的问题，设计了基于多头注意力机制的类型感知器，以对句子中潜在的触发词进行建模，实现无触发词的事件检测。为了验证所提方法的性能，在ACE2005数据集以及低资源越南语数据集上进行了实验。其中，在ACE2005数据集上与图变换网络事件检测（GTN-ED）方法相比，所提方法的F1值提升了3.7%；在越南语数据集上，与二分类的方法类型感知偏差注意机制神经网络（TBNNAM）相比，所提方法的F1值提升了9%。结果表明，通过在Transformer中融入句法信息能有效地连接句子中分散的事件信息来提高事件检测的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于跨语言神经主题模型的汉越新闻话题发现方法

杨威亚, 余正涛, 高盛祥, 宋燃

计算机应用 2021, 41 (10): 2879-2884. DOI: 10.11772/j.issn.1001-9081.2020122054

摘要（319）

PDF （758KB）（188）

针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺，训练高质量的双语词嵌入较为困难，而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题，提出一种基于跨语言神经主题模型（CL-NTM）的汉越新闻话题发现方法，利用新闻的主题信息对新闻文本进行表征，将双语语义对齐转化为双语主题对齐任务。首先，针对汉语和越南语分别训练基于变分自编码器的神经主题模型，从而得到单语的主题抽象表征；然后，利用小规模的平行语料将双语主题映射到同一语义空间；最后，使用 K-means方法对双语主题表征进行聚类，从而发现新闻事件簇的话题。实验结果表明，所提方法相较于面向中英文的隐狄利克雷分配主题改进模型（ICE-LDA）在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点，可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。

参考文献 | 相关文章 | 多维度评价

Select

5. CCML2021+222：融合句法信息的无触发词事件检测方法

汪翠张亚飞郭军军高盛祥余正涛

录用日期: 2021-06-17

Select

6. BigData2023-P00186 基于多路信息聚合协同解码的单通道语音增强

莫尚斌王文君董凌高盛祥余正涛